BR方法,Binary Relevance

具体就是分别处理每个类标然后,对新的数据集应用传统分类方法,继而组合为一个整体,对测试集合预测最终结果
  • step 1

准备数据,假如数据集有Q个类标,这几个类标独立呈现,则把这个数据集划分成Q个数据集,每个数据集包含所有的原始属性,还有一个类标,每个数据集的类标都各不相同,这样步骤一结束。
  • step 2

分别训练Q个分类器,这些分类器可以是决策树,SVM,ANN,贝叶斯网,或者knn,只要是分类方法都行。这些分类器对应Q个分类模型。
  • step 3

使用Q个分类模型预测测试集,对每个测试样例,得到Q个分量的向量,组合这些向量得到最终的测试结果,也就是预测结果集合。
  • step 4

将预测结果与测试集的实际结果比较,得到各种各样度量结果,进行效率的比较。

LP方法,Label Powerset

这个方法与BR的区别是它不能预测未知数据集合,但是比BR方法更高效,因为它只需要一个模型。
一下是具体的步骤:
  • step1

转化数据集合,将数据集中出现的每个与其他类标组合不同的类标组合看成一个类别取值,这样这个数据集的类别属性的取值个数将会接近于2^Q个,如果数据集取尽所有这2^Q个组合的话,否则就以数据集中出现的为基准。得到的新的类别属性不再具有现实意义。
  • step 2

使用传统分类器训练数据集合,得到一个模型。
  • step 3

传统的预测过程,然后是结果的转化,把预测出的单个结果映射到Q个分量的结果向量,组合这些向量得到结果集合
  • step 4

度量过程,将结果集合与测试集的真实类标集合对照,使用通用的度量标准评估,得到最终的比较结果。

My Thinking

drawing same picture
wrong, costume party
  • actually I have a cup in my desk, there is no water in it,which beside it is my pen

    • And the book under the pc screen is about how to effectively using C++